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摘要 : 临床 术语 标准 化 对 于 处 理 电子 病历 中 临床 术语 不 规范 问题 具有 重要 的 研究 意义 。 目 前 主流 的 解决 方法 是 采 
用 “召回 -排序 ”的 策略 。 该 文 基于 中 国 健康 信息 处 理 大 会 (CHIP2021) 1 评测 3 中 提供 的 数据 集 ， 提 出 了 一 个 基于 多 策 
略 的 临床 术语 标准 化 方法 ， 在 召回 阶段 ， 采 用 全 匹配 策略 、 相 似 原 词 的 标准 词 推荐 以 及 基于 TF-IDF 与 改进 的 Jaccard 
系数 的 相似 度 计 算 去 召回 候选 的 标准 词 集合 。 同 时 ， 该 文 构建 了 基于 BERT 模型 的 标准 词 数量 预测 模型 ， 利 用 对 抗 训 
练 、Focal Loss 与 标签 平滑 策略 有 效 地 提高 了 模型 的 预测 性 能 和 泛 化 性 能 。 在 排序 阶段 ， 该 文 利 用 基于 对 抗 训练 与 诊断 
信息 融合 的 BERT 蕴含 分 数 排序 模型 对 候选 词 集合 排序 ， 再 根据 数量 预测 模型 输出 的 结果 生成 最 终 预测 的 标准 词 。 在 
最 终 的 评测 中 ， 该 文 方法 准确 率 达 到 0.6356， 在 参赛 队伍 中 位 列 第 二 名 。 
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Abstract: The clinical term normalization has important research significance for dealing with the problem of non- 
standardization of clinical terminology in electronic medical records. The current mainstream solution is to adopt 
a "recall-sort" strategy. Based on the dataset provided in Evaluation 3 of the China Conference of Health Infor- 
mation Processing, we propose a multi-strategy-based normalization method for clinical terms. In the recall phase, 
the full-matching strategy, standard words recommendation of similar original words, and similarity calculation 
based on the TF-IDF and the improved Jaccard coefficient are used to recall the candidate standard word set. At the 
same time, we construct a standard quantity prediction model based on the BERT model, and use adversarial training, 
focal loss and label smoothing strategies to effectively improve the prediction performance and generalization per- 
formance of the models. In the ranking stage, In the ranking stage, we use the BERT implicit score ranking model 
based on adversarial training and fusion of diagnostic information to rank the candidate word set, and then generate 
the final predicted standard words based on the output of the quantity prediction model. In the final evaluation test 
set, the method accuracy rate of our method reached 0.6356, ranking second place among the participating teams. 
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一 
= 
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信息 处 理会 议 CCHIP2019) 味 发 布 了 中 文 临 床 术 
语 标准 化 任务 与 数据 集 ， 推 动 了 该 任务 在 中 文 自 
然 语言 处 理 上 的 发 展 ， 然 而 ， 目 前 中 文 临 床 术 语 


由 于 医护 人 员 个 人 表述 习惯 的 不 同 ， 在 临床 
实践 中 , 同一 种 诊断 、 手 术 、 药 品 、 检查 、 化 验 、 
症状 等 表述 会 有 成 百 上 干 种 不 同 的 写法 。 在 医疗 
信息 处 理 领 域 中 ， 临 床 术 语 标准 化 任务 即 是 为 临 
床上 各 种 不 同 说 法 找到 对 应 的 标准 表述 。 

临床 医学 术语 标准 是 面向 计算 机 应 用 、 以 概 
念 为 中 心 的 术语 一 体 化 系统 , 以 疾病 诊断 为 核心 ， 
涵盖 身体 结构 病因 、 病 理 、 临 床 表现 、 临 床 诊 断 
技术 与 方法 、 操 作 技术 、 医 学 仪器 与 设备 、 护 理 、 
社会 背景 、 物 理 等 范畴 。 智 能 诊疗 、 智 能 影像 识 
别 等 在 实施 过 程 中 面临 临床 医学 术语 不 规范 、 临 
床 医 学 知识 匮乏 、 不 全 面 、 不 成 体系 以 及 词法 、 
名 法、 语义 、 语 用 存在 不 确定 性 等 问题 ， 需 要 统 
一 、 规 范 的 术语 标准 体系 作为 支撑 ， 实 现 各 系统 


标准 化 还 处 在 起 步 阶段 ， 相 关 研究 也 较 少 。 
2021 年 ， 第 七 届 中 国 健康 信息 处 理会 议 
(CHIP 2021) 开 放 了 第 三 届 中 文 临 床 术 语 标准 化 
评测 任务 ， 本 团队 参加 该 比赛 并 获得 第 二 名 ， 后 
续 本 文 将 从 中 文 临 床 术 语 标准 化 任务 的 研究 现状 ， 
CHIP 2021 的 数据 描述 与 本 团队 构建 的 临床 术语 
标准 化 模型 描述 三 个 方面 展开 ， 并 对 实验 结果 进 


行 分 析 与 总 结 展望。 
1 相关 研究 


早期 面向 临床 术语 标准 化 任务 采用 基于 规则 
的 方法 。Ghiasvand 等 回采 用 基于 编辑 距离 特征 的 
方法 生成 候选 集 ， 通 过 训练 集 学 习 到 554 种 编辑 
距离 模式 , 在 SemEval-2014 任务 7 上 取得 了 最 佳 


底层 数据 的 标准 化 、 规 范 化 。 而 临床 医学 术语 标 
准 的 应 用 ， 可 用 来 精确 表达 医学 概念 ， 编 码 、 提 
取 和 分 析 医 学 数据 ,支持 医学 数据 的 一 致 性 索引 、 
存储 、 调 用 和 跨 系 统 集 成 ， 实 现 医疗 数据 的 语义 
互 操作 ， 在 医疗 人 工 智能 领域 发 挥 重要 作用 。 

语义 关系 又 称 语义 结构 、 语 义 结构 关系 , 是 词 
语 概念 意义 间 的 关系 抽象 概括 的 结果 。 医 疗 人 工 
智能 要 实现 一 定 程度 上 的 智能 自主 性 、 独 立 性 ， 
必须 有 能 力 对 数据 的 语义 关系 进行 关联 和 处 理 。 
中 文 临床 医学 术语 标准 利用 相似 度 、 疑 似 性 、 深 
度 学 习 等 算法 处 理 自然 语言 ， 深 度 挖掘 潜在 语义 
关系 ， 实 现 疾病 /诊断 与 发 病 部 位 、 临 床 表现 、 临 
床 观察 、 检 查 、 治 疗 、 病 理 、 化 学 品 、 药 物品 、 
形态 学 等 具有 临床 意义 的 不 同 医疗 元 素 和 相关 元 
素 之 间 的 语义 关联 ， 为 医疗 人 工 智 能 的 运作 机 制 
提供 基于 事实 的 计算 语 境 ， 对 破解 医疗 人 工 智 能 
实践 难题 起 到 支撑 性 作用 。 
规范 化 的 临床 医学 术语 标准 可 以 消除 临床 概 
念 的 不 确定 性 ， 以 支持 医疗 数据 的 精确 记录 与 分 
析 ; 实现 不 同系 统 间 医疗 数据 的 分 享 与 利用 ; 促 
进入 工 智能 与 医疗 健康 领域 的 深度 融合 。 

2013 年 ，ShARe/CLEF eHealthl!l 最 早 发 布 ] 
英语 临床 术语 标准 化 数据 。 此 外 ， 在 SemEval- 
2014 Task 7 和 SemEval-2015 Task 14DB] 发 布 了 英 
语 临床 术语 标准 化 的 评测 任务 。 第 五 届 中 国 健康 


效果 。Kang 等 中 提出 了 5 种 规则 来 提升 疾病 术语 
的 归 一 化 性 能 。 

目前 ， 针 对 临床 术语 标准 化 任务 大 多 数 采 用 
“召回 -排序 ”的 策略 .Leaman 等 中 首次 提出 了 一 种 
成 对 (pairwise) 学 习 排 序 技术 ， 该 技术 采用 矢量 
空间 模型 来 计算 非 标准 化 医学 实体 和 标准 化 医学 
实体 两 者 的 文本 相似 度 。Luo 等 四 提出 一 个 多 任 
务 框 架 ， 可 以 对 疾病 和 手术 操作 类 实体 进行 规范 
化 ， 多 任务 共享 结构 使 模型 能 够 利用 疾病 和 手术 
操作 之 间 的 医学 相关 性 ， 更 好 地 执行 消 岐 任务 。 
及 等 四 通过 微调 的 预 训练 BERT 模型 来 实现 实 4 
规范 化 。 在 中 文 临 床 术 语 标准 化 任务 上 ， 崇 伟 峰 
等 LI 基于 文本 蕴含 的 思想 ,构建 了 临床 术语 标准 
作 系 统 ， 由 数据 预 处 理 、BERT 列 含 打分 、BERT 
数量 预测 以 及 基于 逻辑 回归 的 重 排序 四 个 模块 组 
成 ， 在 第 五 届 中 国 健康 信息 处 理 大 会 评测 1 的 测 
试 集 达 到 了 94.825% 的 性 能 ， 评 测 排名 第 一 。 陈 
沫 沙 等 设计 了 两 种 检索 方式 ， 通 过 检索 “编码 - 
标准 词 " 与 “标注 历史 ”得 到 候选 标准 词 , 再 基于 文 
本 蕴含 的 思想 对 候选 标准 词 进行 重 排 序 ， 其 提出 
的 方法 在 测试 集 上 单 模型 达到 了 89.1%、 融 合 模 
型 达到 92.8% 的 性 能 。 孙 日 君 等 03 提 出 了 一 种 基 
于 BERT 的 临床 术语 标准 化 方法 。 该 方法 使 用 
Jaccard 相似 度 算 法 从 标准 术语 集中 挑选 出 候选 
词 ， 基 于 BERT 模型 对 原始 词 和 候选 词 进 行 匹 配 
得 到 标准 化 的 结果 ， 该 方法 在 测试 集 上 准确 率 为 
90.04%。 与 孙 日 君 等 人 相似 ， 杨 飞 洪 等 03] 通 过 融 
合 文本 相似 度 排序 +BERT 模型 匹配 开展 建 模 ， 该 
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方法 在 第 五 届 中 国 健康 信息 处 理 大 会 评测 1 的 测 
试 集 准 确 率 为 88.51%。 

除了 采用 “召回 -排序 ”的 策略 ， 还 有 学 者 尝试 
将 生成 式 方法 的 思想 应 用 于 该 任务 。 闫 环 辉 将 临 
床 术语 标准 化 任务 类 比 为 翻译 任务 ， 引 入 深度 生 
成 式 模 型 对 描述 文本 的 核心 语义 进行 生成 并 得 到 
标准 词 候选 集 ， 再 利用 基于 BERT 的 语义 相似 度 
算法 对 候选 集 进 行 重 排序 得 到 最 终 标 准 词 。 


2 基于 多 策略 的 临床 术语 标准 化 方法 


如 图 1 所 示 ， 本 文 提 出 了 一 个 基于 多 策略 的 
临床 术语 标准 化 方法 , 包括 候选 标准 词 召 回 模块 、 
标准 词 数量 预测 模块 和 候选 标准 词 排序 模块 。 在 
召回 阶段 ， 采 用 全 匹配 策略 、 相 似 原 词 的 标准 词 
推荐 以 及 基于 TF-IDF 与 改进 的 Jaccard 系数 的 相 
似 度 计算 去 召回 候选 的 标准 词 集合 。 同 时 ， 本 文 
构建 了 基于 BERT 模型 的 标准 词 数 量 预测 模型 ， 
利用 对 抗 训练 、Focal Loss 与 标签 平滑 策略 有 效 
地 提高 了 模型 的 预测 性 能 和 泛 化 性 能 。 在 排序 阶 
段 ， 本 文 利 用 基于 对 抗 训练 与 诊断 信息 融合 的 
BERT 缠 含 分数 排 序 模型 对 候选 词 集合 排序 ， 再 
根据 数量 预测 模型 输出 的 结果 生成 最 终 预测 的 标 
准 词 。 


图 1 方法 流程 图 


2.1 候选 标准 词 召 回 

在 召回 阶段 , 采用 全 匹配 策略 、 相 似 原 词 的 标 
准 词 推荐 以 及 基于 TF-IDF 与 改进 的 Jaccard 系数 
的 原 词 - 标 准 词 相 似 度 计算 去 召回 候选 的 标准 词 
集合 。 假 设 ICD-10 标准 词 列表 为 $ = {5S1，52， 
.…， Sn}， 训 练 集 样本 为 X = {Xi1， X22，...，)}， 
样本 X: (Xi EX) 的 原 词 为 0;， 候选 标准 词 列表 为 


Hi 


本 文 首先 采用 全 [匹配 策略 筛选 候选 标准 词 ， 
对 于 样本 X:， 人 遍历 标准 词 列表 S$， 判 断 每 一 个 5 

(5; ES) 字符 串 是 否 完全 出 现在 字符 串 0; 中 ， 知 
完全 出 现在 字符 串 0; 中 ， 则 添加 到 候选 标准 词 列 
表 HH。 

在 相似 原 词 的 标准 词 推 荐 模块 中 , 本 文 基于 X 
中 的 所 有 原 词 训练 一 个 TF-IDF 模型 Mo， 通 过 该 
模型 , 计算 了 每 一 个 样本 总 的 原 词 0; 与 X 中 的 其 它 
样本 的 原 词 之 间 的 余弦 相似 度 ， 对 于 样本 X:， 选 
择 相 似 度 最 高 的 k 个 相似 原 词 ， 将 相似 原 词 所 对 
应 的 标准 词 添 加 到 候选 标准 词 列表 fH 中。 实验 过 
程 中 ，k 取 40。 

在 基于 TF-IDF 与 改进 的 Jaccard 系数 的 原 词 
-标准 词 相似 度 计算 模块 中 ， 利 用 ICD-10 标准 词 
列表 5 训练 一 个 TF-IDF 模型 M。 通过 该 模型 计算 
样本 总 的 原 词 0; 与 标准 词 % 之 间 的 余弦 相似 度 
Simzr。 此 外 ,还 计算 了 原 词 0; 与 标准 词 5j 之 间 的 字 
级 别 Jaccard 系数 。 原 始 的 Jaccard 系数 表示 为 : 
Ion 5j| 
ICU Sil 

由 于 原 词 中 可 能 包含 多 个 标准 词 ， 原 词 中 包 
含 的 信息 量 远 远大 于 每 个 标准 词 中 包含 的 信息 量 ， 
从 而 导致 Jaccard 系数 普遍 偏 低 。 因 此， 本 文 在 计 
算 Jaccard 系数 时 , 分 母 只 考虑 标准 词 中 出 现 的 字 
的 数量 ， 即 


Jaccard(Oi ， 5)) 三 


Jaccard(0i， 5)) = 


Ion S| 
13j| 

通过 改进 后 的 Jaccard 系数 计算 原 词 0; 与 标准 
词 5j 之 间 的 相似 度 为 Simj, 则 原 词 0 与 标准 词 5j2 
间 的 融合 相似 度 为 : 

$= Simr+ Sim; 

通过 两 种 相似 度 计算 方法 融合 得 到 0 与 $ 中 
的 每 个 标准 词 之 间 的 相似 度 ， 根 据 相 似 度 排序 并 
选择 前 7 个 标准 词 添加 到 候选 标准 词 列表 Hi 中 。 实 
验 过 程 中 ，r 取 100。 

通过 三 种 步骤 召回 的 候选 标准 词 可 能 出 现 重 
复 现象 ， 经 过 去 重 后 得 到 的 候选 标准 词 列表 即 为 
最 终 的 候选 标准 词 列表 。 


2.2 标准 词 数 量 预测 
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Unlabeled Sentence A and B Pair 
图 2 BERT 模型 
本 文 基于 BERT 模型 (如 图 2 所 示 ) 构建 了 

标准 词 数 量 预测 模型 ， 同 时 融合 了 不 同 的 策略 提 
升 模型 的 预测 性 能 和 泛 化 性 能 ， 评 测 阶段 ， 融 合 
三 种 策略 下 的 模型 : 基于 对 抗 训练 的 BERT 模型 、 
基于 对 抗 训 练 与 Focal Loss 的 BERT 模型 以 及 基 
于 对 抗 训练 与 标签 平滑 的 EL 模型 。 标 准 词 数 
量 预测 模型 的 标签 分 为 三 类 : 只 含有 一 个 标准 词 、 
包含 两 个 标准 词 以 及 包含 两 个 以 上 的 标准 词 。 


2.2.1 对 抗 训练 

本 文 利 用 对 抗 训练 增加 模型 的 多 样 性 和 泛 化 
性 ， 采 用 Fast Gradient Method (FGM) 对 模型 的 
Embedding 层 注入 噪声 进行 扰动 ， 注 入 的 扰动 定 
义 为 : 


raav = &* g/llgll 
9g=V xL(x, y;0) 


其 中 g 为 原始 的 模型 梯度 ，aQ 为 句子 词汇 的 权 
本 文 实验 过 程 中 设置 为 1。 扰 动 后 的 梯 


重 和 矩阵 ， 
度 为 : 


9g" = 7aay 十 9 

对 抗 训练 过 程 中 ， 厅 广 采用 扰动 后 的 梯度 进 
行 反 向 传播 和 参数 更 新 后 ， 再 将 Embedding 层 的 
噪声 移 除 ， 恢 复原 来 的 梯度 ， 进 行 下 一 轮 的 迭代 
训练 。 


2.2.2 Focal Loss 

对 于 每 一 个 类 别 ， 由 于 负 样 本 多 于 正 样本 ， 
因此 分 类 结果 可 能 会 存在 偏差 。 本 文 除 了 采用 交 
叉 炉 作为 损失 函数 构建 模型 之 外 ,还 采用 了 Focal 
Loss 来 帮助 缓解 类 不 平衡 的 问题 。 这 个 损失 函数 
旨 在 减少 训练 中 大 量 的 简单 负 样 本 的 权 值 。Focal 
Loss 的 公式 如 下 : 


C 
L= 》(G-pD7iog 0 


i=1 
其 中 权重 系数 y 是 超 参数 。Lin 等 5 验证 了 
y 的 最 优 值 是 2， 本 文 实验 也 将 y 的 值 设 为 2。 


2.2.3 标签 平滑 

对 于 交叉 焙 损 失 函 数 ， 在 模型 训练 阶段 需要 
使 用 预测 概率 来 拟 合 真实 概率 。 但 是 ， 模 型 拟 合 
one-hot 编码 的 标签 会 导致 其 预测 结果 对 于 真实 
标签 的 过 拟 合 ， 因 此 无 法 保证 模型 的 泛 化 能 
本 文采 用 标签 平滑 技术 来 减轻 模型 的 过 度 拟 合 的 
问题 。 假 设 y 是 一 个 one-hot 编码 的 标签 ， 经 过 标 
签 平滑 后 的 真实 标签 可 以 表示 为 : 


E 
= (1—e)* 和 十 [KI 
RE 


L= >， * log (pi) 


其 中 e 是 平滑 因子 ， K 是 类 别 的 数量 。 在 标准 
词 数量 预测 任务 中 ，K 是 3， 设置 为 0.05。 


2.3 候选 标准 词 排序 


名 提 后 扣 的- 多 


诊断 原 词 候选 标准 词 
图 3 文本 列 含 模型 
本 文 基于 BERT 模型 构建 了 文本 殖 含 模型 
(如 图 3 所 示 ), 主要 是 对 给 定 的 诊断 原 词 计算 其 
与 每 一 个 标准 名 的 蕴含 分 数 。 本 文 将 诊断 原 词 与 
Ol ee 
，0 代表 候选 标准 词 不 是 该 原 词 正确 的 标注 词 ， 
0 
为 1 的 概率 作为 蕴含 分 数 。 
本 文 融合 四 种 策略 下 的 模型 : BERT 模型 、 基 
于 对 抗 训练 的 BERT 模型 、 融 合 手术 原 词 数 据 的 
BERT 模型 、 基 于 对 抗 训练 与 融合 手术 原 词 数据 
的 BERT 模型 。 


chinaXiv:202307.00104v1 
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在 数据 构建 部 分 ， 针 对 手术 原 词 数 据 ， 本 文 
只 将 手术 原 词 数据 作为 正 样 本 ， 评 测 任务 提供 的 
原 词 数 据 样本 为 2500 条 ， 处 理 后 的 数据 为 2605 
条 ， 由 于 该 部 分 数据 样本 太 少 ， 因 此 本 文 将 该 音 
分 数据 进行 了 四 倍数 据 量 的 扩充 ， 最 后 共生 成 的 
手术 原 词 训练 样本 为 10420 条 。 本 文 在 构建 诊断 
原 词 数 据 时 ， 采 用 2.1 中 的 相似 原 词 的 标准 词 推 
荐 模块 ， 提 取 最 相似 的 五 个 相似 原 词 的 标准 词 以 
及 基于 TF-IDF 模型 M, 的 最 相似 的 十 个 标准 词 ， 
将 这 一 部 分 标准 词 中 不 在 答案 中 的 词 作为 负 样 本 ， 
答案 中 所 有 的 标准 词 作为 正 样本 。 该 策略 下 构建 
的 正 样本 数量 为 12984 条 ， 负 样本 数量 为 89688 
条 ， 因 此 本 文 将 正 样本 进行 了 七 倍数 据 扩 充 ， 最 
终生 成 的 正 样 本 数量 为 90888 条 。 


2.4 多 阶段 结果 融合 

在 2.1 得 到 召回 的 候选 标准 词 之 后 ， 采 用 2.3 
的 草 含 模型 对 候选 标准 词 进 行 排序 , 同时 采用 2.2 
的 标准 词 数 量 预测 模型 预测 测试 样本 对 应 的 标准 
词 数量 ， 若 标准 词 数量 预测 模型 识别 样本 为 只 含 
有 一 个 标准 词 或 包含 两 个 标准 词 ， 则 分 别 推荐 评 
分 最 高 的 一 /两 个 标准 词 。 如 果 模 型 预测 的 标准 词 
数量 大 于 两 个 ， 则 采用 预测 概率 大 于 0.5 的 标准 
词 , 若 预测 概率 大 于 0.5 的 标准 词 数量 少 于 三 个 ， 
则 选择 评分 最 高 的 三 个 标准 词 。 


3 数据 描述 


3500 3330 


3000 2837 
2500 
呈 2000 
SE ，- 
”1500 1032 
1000 
500 国 
0 
1 2 >2 


标准 词 个 数 


图 4 标准 词 个 数 数据 分 布 

先 将 训练 数据 中 的 标准 词 进行 预 处 理 ， 去 掉 
标记 为 “0” 的 标准 词 ， 同 时 去 掉 文本 中 "、" 等 符 
号 。 将 训练 集中 的 所 有 标准 词 与 《国际 疾病 分 类 
ICD-10 北京 临床 版 v601》 中 的 标准 词 合并 去 重 
后 得 到 新 的 标准 词 列表 ， 新 的 标准 词 列 表 共 包 含 


2 https://github.com/trueto/medbert 


37869 个 标准 词 。 预 处 理 后 的 标准 词 数 量 按 只 含 
有 一 个 标准 词 、 包 含 两 个 标准 词 以 及 包含 两 个 以 
上 的 标准 词 划 分 ， 数 据 分 布 如 图 4 所 示 。 同 时 ， 
我 们 统计 了 诊断 原 词 的 一 系列 长 度 特征 ， 结 果 如 
表 1 所 示 。 

表 1 原 词 长 度 统计 特征 


属性 数值 
平均 值 11.314766 
方差 6.281472 
最 小 值 2 
最 大 值 103 


4 实验 结果 与 分 析 


4. 1 实验 设置 

本 文 的 实验 采用 RTX TITAN GPU 进行 训练 
与 预测 ， 代 码 基 于 1.7.0 的 Pytorch 框架 与 4.4.0 
的 Transformers 框架 实现 ， 在 标准 词 数 量 预 测 模 
块 与 候选 标准 词 排 序 模块 ， 分 别 将 构建 的 数据 进 
行 五 折 划 分 ， 候 选 标准 词 排序 模块 中 的 手术 原 词 
数据 用 于 每 一 折 的 模型 训练 。 预 测 阶 段 ， 每 一 个 
模型 的 输出 结果 为 交叉 验证 的 五 个 模型 预测 的 概 
率 平 均值 ， 不 同 模型 的 结果 融合 为 各 个 模型 的 概 
率 平均 值 。 在 候选 标准 词 召 回 阶段 ， 本 文采 用 
strict 的 准确 率 进行 评估 ， 当 样本 答案 中 的 所 有 标 
准 词 都 完全 召回 才 视 为 正确 。 在 标准 词 数量 预测 
模块 与 候选 标准 词 排序 模块 ， 各 个 分 类 模型 采用 
准确 率 进 行 评估 。 在 标准 词 数量 预测 模块 与 候选 
标准 词 排 序 模块 中 ,本 文采 用 MedBERT-wwm? 作 
为 预 训 练 的 基 模 型 ， 微 调 阶段 的 参数 值 如 表 2 所 
不 。 


表 2 微调 阶段 参数 值 


模块 参数 参数 值 

标准 词 数 量 Batch Size 32 
预测 模块 Sequence Length 32 
Epoch 15 

Learning Rate Se-5 

候选 标准 词 Batch Size 256 
排序 模块 Sequence Length 64 
Epoch 10 

Learning Rate Se-5 


4. 2 候选 词 召 回 实验 结果 

本 文 首先 探究 了 TF-IDF 与 改进 的 Jaccard 系 
数 的 融合 策略 的 有 效 性 ， 分 别 尝试 了 以 下 几 种 组 
合 : 基于 TF-IDF 的 相似 度 计 算 、 基 于 Jaccard 系 
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数 的 相似 度 计算 、 基 于 改进 的 Jaccard 系数 的 相似 


在 最 终 评测 阶段 ， 为 了 提高 


模型 的 泛 化 性 ， 本 文 


度 计 算 、 融 合 TF-IDF 与 Jaccard 系数 的 相似 度 计 仍 融 合 了 该 模型 的 结果 。 

算 与 融合 TF-IDF 与 改进 的 Jaccard 系数 的 相似 度 表 6 候选 标准 词 排序 模型 对 比 实 验 结 果 
计算 ， 实 验 结果 如 表 3 所 示 ， 单 独 使 用 时 ， 改 进 方法 准确 率 
的 Jaccard 系数 性 能 略 低 于 原始 的 Jaccard 系数 ， BERT 94.08% 
准确 率 降 低 了 0.79%， 融 合 使 用 时 ， 基 于 改进 的 融合 手术 原 词 数 据 的 BERT 模型 | 94.05% 
Jaccard 系数 与 TF-IDF 的 相似 度 计 算 方 法 性 能 更 基于 对 抗 训练 的 BERT 模型 94.22% 
好 ， 该 策略 比 单独 使 用 TF-IDF 与 单独 使 用 改进 基于 对 抗 训练 与 融合 手术 原 词 数 | 94.26% 
的 Jaccard 系数 分 别提 升 了 0.46% 和 2%， 可 见 融 据 的 BERT 模型 


合 策略 可 以 有 效 地 提升 召回 阶段 的 模型 性 能 。 
4.5 错误 分 析 
表 3 相似 度 计算 方法 对 比 实验 结果 表 7 候选 词 召 回 模块 错误 样 例 分 析 
TE 3 bs a a 
0 汗 胞 类 
Jaccard 92.50% | ee A i 二 
改进 的 Jaccard 91.71% 标准 词 未 特 指 nD a J 
TF-IDF + 改进 的 Jaccard 93.71% 回 的 标 
准 词 
为 了 进一步 探究 全 匹配 策略 、 相 似 原 词 的 标 。“-_ 错 详 样 例 2 _ 
准 词 推荐 以 及 相似 度 计 算 三 种 方法 的 有 效 性 ， 本 原 词 。 “| 下 是 底 黑 色素 瘤 扩 信 切除 术 后 , 左 
文 进行 了 消融 实验 ， 结 果 如 表 4 所 示 。 下 肢 肌 肉 间 转 移 ， 肺 、 肝 转移 ?， 胃 
表 4 消融 实验 结果 淡 疡 
方法 准确 率 标准 词 | 足 部 恶性 肿瘤 、 恶性 黑色 素 瘤 \ 下 肢 
本 文采 用 的 候选 词 召回 方法 93. 71% 继 发 恶性 肿瘤 、 肺 继 发 恶性 肿瘤 、 肝 
-全 匹配 策略 92. 94% 继 发 恶性 肿瘤 、 胃 淡 疡 、 转移 + 恶性 
-相似 原 词 的 标准 词 推荐 | 74. 20% 二 和 
-相似 度 计 算 | 72. 20% 未 能 召 | 下肢 继 发 恶性 肿 痛 
可 的 标 
4. 3 标准 词 数量 预测 实验 结果 1 
本 文 探究 了 不 同 策略 对 标准 词 数量 预测 任务 。 - 针 之 村 全 3 
的 提升 ， 如 表 5 所 示 ， 可 以 看 到 对 抗 训练 为 模型 。 _ 原 词 ”| 前列 腺 瘤 峭 髓 侵犯 
带 来 了 有 效 的 提升 , 准确 率 提高 了 0.63%。 此 外 ， ”标准 词 | 前 列 腺 恶性 肿瘤 、 骨 甬 继 发 恶性 有 
针对 损失 函数 的 处 理 〔Focal Loss 与 标签 平滑 ) 瘤 、 瘤 
也 为 模型 带 来 了 稳定 的 性 能 提升 。 未 能 召 | 骨 散 继 发 恶性 肿瘤 
表 5 标准 词 数量 预测 模型 对 比 实验 结果 回 的 标 
方法 准确 率 惟 词 
BERT 77.14% 
BERT+ 对 抗 训练 77.77% 本 文 进一步 对 候选 词 召回 模块 进行 了 错误 分 
BERT + 对 抗 训练 + Focal Loss | 77.91% 析 ， 表 7 列举 了 3 个 未 能 完全 召回 所 有 候选 词 的 
BERT + 对 抗 训练 + 标签 平滑 78.51% 样 例 ， 可 见 候选 词 召 回 模块 在 以 下 两 种 情况 下 较 
难 正确 地 召回 : (1) 标 准 词 与 原 词 的 相似 度 过 低 ; 
4.4 候选 标准 词 排 序 实 验 结果 (2) 原 词 对 应 的 标准 词 数量 过 多 ,未 能 完全 召回 
本 文采 用 的 四 种 文本 蕴含 模型 的 实验 结果 如 ”全 部 对 应 的 标准 词 。 
表 6 所 示 。 基 于 对 抗 训练 与 融合 手术 原 词 数据 的 在 候选 标准 词 排 序 模块 中 ， 模 型 容易 将 正确 
BERT 模型 性 能 最 佳 , 模型 准确 率 达 到 了 94.26%， 标准 词 的 上 位 标准 词 识 别 为 标准 词 ， 比 如 “ 左 足 
单独 融合 手术 原 词 数据 时 , 模型 性 能 有 略微 下 降 ， 。” 底 裂 伤 伴 感染 "的 标准 词 之 一 为 " 足 软组织 感染 ”， 
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模型 将 原 词 与 * 足 软组织 感染 ”的 上 位 标准 词 “ 感 
染 ” 识 别 为 蕴含 关系 ;“ 双 子宫 双 宫 颈 伴 双 阴 道 道 ” 
的 标准 词 为 “双子 宫 双子 宫颈 双 阴 道 ” 模型 将 原 
词 与 “双子 宫 ” 识 别 为 蕴含 关系 。 上 位 词 误 判 世 
现象 明显 影响 了 文本 强 含 模型 的 性 能 。 

在 标准 词 数量 预测 模块 中 ， 模 型 难以 只 利 
原 词 文本 准确 判断 标准 词 数量 ， 存在 两 种 较 极端 
的 情况 是 模型 基本 无 法 准确 判断 的 : 原 词 文本 长 
但 只 对 应 一 个 或 两 个 标准 词 、 原 词 文本 长 度 短 但 
包含 多 个 标准 词 ， 如 表 8 所 示 。 
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表 8 标准 词 数 量 预测 模块 错误 样 例 分 析 


错误 样 例 1 


原 词 左 顶 枕骨 瘤 


标准 词 “| 骨 瘤 、 枕 骨 良 性 肿瘤 、 顶 骨 民 性 肿瘤 


错误 样 例 2 


原 词 左 乳 肿块 况 


标准 词 ”| 乳房 肿 物 、 乳 腺 恶性 肿瘤 、 瘤 
错误 样 例 3 

原 词 头面 部 跌 伤 

标准 词 ”| 头 部 损伤 、 摔 伤 、 面 部 损伤 
错误 样 例 4 


原 词 皮炎 腰 腿 痛 


标准 词 ”| 皮炎 、 下 上 肢 疼 痛 、 腰 痛 
错误 样 例 5 
原 词 可 肠系膜 高 侵袭 性 B 细胞 源 性 非 霍 


奇 金 淋 巴 癌 工期 (Burrkitt 淋巴 瘤 ) 
化 疗 后 


标准 词 ”| 非 霍 奇 金 淋巴 瘤 (B 细胞 型 ) 


错误 样 例 6 


原 词 ” |[ 经 典型 专 奇 金 淋 巴 交 1V 期 B 结 节 
硬化 型 、 侵 及 右 颈 部 、 双 锁骨 区 、 前 
纵隔 、 右 胸肌 间 、 右 腋窝 、 双 侧 甩 区 、 
在 内 乳 区 淋巴 结 、 侵 及 俏 《多 发) 


标准 词 节 硬 化 型 经 典 霍 奇 金 淋巴 瘤 


4. 6 最 终 测试 集结 果 

在 最 终 的 评测 阶段 ， 本 文 在 标准 词 数 量 预测 
模块 融合 了 三 个 策略 的 模型 ， 在 候选 标准 词 排序 
模块 融合 了 四 个 策略 的 模型 。 本 文 的 方法 准确 率 
达到 0.6356， 在 参赛 队伍 中 位 列 第 二 名 。 


5 总 结 


在 CHIP 2021 评测 任务 3 上 ， 本 文 提 出 了 基 
于 多 种 策略 的 临床 术语 吾 标 准 化 方法 ， 该 方法 旨 在 
增强 模型 在 各 个 阶段 的 泛 化 能 力 ， 从 而 提高 模型 


的 性 能 。 在 召回 阶段 ， 采 用 全 匹配 策略 、 相 似 原 
词 的 标准 词 推荐 以 及 基于 TF-IDF 与 改进 的 
Jaccard 系数 的 相似 度 计算 去 召回 候选 的 标准 词 
集合 。 同 时 ， 本 文 构建 了 基于 BERT 模型 的 标准 
词 数 量 预测 模型 , 利用 对 抗 训 练 、Focal Loss 与 标 
签 平 滑 策略 有 效 地 提高 了 模型 的 预测 性 能 和 泛 化 
性 能 。 在 排序 阶段 ， 本 文 利 用 基于 对 抗 训练 与 诊 
断 信息 融合 的 BERT 蕴含 分 数 排序 模型 对 候选 词 
合 排 序 ， 再 根据 数量 预测 模型 输出 的 结果 生成 
最 终 预测 的 标准 词 。 最 终 的 评测 测 斌 集中， 本文 
的 方法 准确 率 达 到 0.6356， 在 参赛 队伍 中 位 列 第 
二 名。 

本 文 提出 方法 仍 存 在 一 定 的 局 限 性 ， 在 预 训 
练 模 型 上 只 采用 了 BERT 模型 ， 在 标准 候选 词 排 
序 模块 中 , 只 是 单纯 利用 手术 原 词 数据 进行 微调 ， 
并 未 很 好 利用 手术 原 词 数据 的 信息 ， 未 来 我 们 将 
进一步 改进 本 文 的 模型 ， 尝 试 不 同 的 预 训 练 模型 
在 该 任务 上 的 效果 ， 同 时 进一步 深入 研究 如 何 更 
好 地 融合 与 提取 手术 原 词 数据 的 信息 辅助 该 任务 。 
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